Definition Was ist Flamingo?

Von Dipl.-Ing. (FH) Stefan Luber 4 min Lesedauer

Anbieter zum Thema

Flamingo ist ein visuelles Sprachmodell von DeepMind. Es versteht Beziehungen zwischen visuellen Inhalten und ihren textuellen Beschreibungen. Das Modell besitzt Few-Shot-Lernfähigkeiten und führt Aufgaben aus, ohne vorher dafür mit passendem Bildmaterial ausgiebig trainiert worden zu sein.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Flamingo ist der Name eines von Google DeepMind entwickelten KI-Modells. Es besitzt multimodale Fähigkeiten und gehört der Kategorie der visuellen Sprachmodelle an, die Bild- und Texterkennung kombinieren. Die englische Übersetzung für visuelles Sprachmodell lautet Visual Language Model, weshalb die Abkürzung VLM für diese Art von KI-Modelle verwendet wird.

Erstmals vorgestellt wurde Flamingo im Jahr 2022 in der Veröffentlichung mit dem Titel „Flamingo: a Visual Language Model for Few-Shot Learning“. Wie dem Titel zu entnehmen ist, hat Flamingo Few-Shot-Lernfähigkeiten. Es versteht Beziehungen zwischen visuellen Inhalten (Bilder oder Videos) und ihren textuellen Beschreibungen und ist in der Lage, visuelle Inhalte genau zu beschreiben oder Fragen zu ihnen zu beantworten, ohne mit aufgabenspezifischem Material speziell dafür ausgiebig trainiert worden zu sein. Ein paar wenige Beispielaufgaben genügen. Die multimodalen Few-Shot-Fähigkeiten sind vergleichbar mit den Few-Shot-Lernfähigkeiten der großen Sprachmodelle (Large Language Models – LLM) im Textbereich.

Flamingo besitzt circa 80 Milliarden Parameter und kombiniert ein separat vortrainiertes visuelles KI-Modell mit einem vortrainierten Sprachmodell. In Benchmarks für kombinierte visuelle Sprachaufgaben übertrifft Flamingo die Few-Shot-Lernfähigkeiten anderer VLM deutlich. Die Entwickler sehen in Flamingo einen wichtigen Schritt zu einer allgemeinen visuellen Künstlichen Intelligenz. Flamingo steht nicht frei unter Open-Source-Lizenz zur Verfügung. Es gibt allerdings einige ähnliche frei verfügbare Open-Source-Implementierungen von Flamingo wie OpenFlamingo oder IDEFICS (Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS).

Motivation für die Entwicklung von Flamingo

Menschen erfassen und verstehen die Welt und ihre Zusammenhänge multimodal. Damit auch eine Künstliche Intelligenz ähnliche Fähigkeiten wie der Mensch entwickelt, ist es notwendig, dass sie ebenfalls multimodale Informationen erfassen und verarbeiten kann. Ein weiteres Merkmal von menschlicher Intelligenz ist, dass nur wenige Beispiele oder Anweisungen genügen, um die Erledigung neuer Aufgaben zu erlernen oder neue Problemstellungen zu lösen. Auch diese sogenannten Few-Shot-Lernfähigkeiten benötigt eine Künstliche Intelligenz. Im Bereich von großen Sprachmodellen ist es bereits gelungen, KI-Modelle mit relativ guten Few-Shot-Lernfähigkeiten zu realisieren. Mit vielen Daten vortrainierte LLMs, wie die der GPT-Familie, lernen schon mit wenigen Beispielen, bestimmte Aufgaben zu erfüllen. Bei visuellen KI-Modellen waren diese Fähigkeiten bisher nur schwach entwickelt.

Visuelle Modelle werden wie große Sprachmodelle mit riesigen Mengen an Daten vortrainiert. Um sie für eine bestimmte bisher noch nicht erlernte Aufgabe feinabzustimmen, sind zusätzlich relativ große Mengen an gelabeltem Trainingsmaterial mit Tausenden von Bildern notwendig. Diese Feinjustierung für eine neue Aufgabe ist zeitaufwendig und ressourcenintensiv. Motivation für die Entwicklung von Flamingo war es, Modelle und Methoden zu finden und zu entwickeln, einem multimodalen visuellen Sprachmodell Few-Shot-Lernfähigkeiten zu vermitteln. Schon mit einigen aufgabenspezifischen Informationen soll das VLM neue Aufgabenstellungen lösen können. Ähnlich wie bei einem Sprachmodell, dem man eine neue Aufgabe Prompt-basiert mit ein paar Beispielen erläutern kann, kann Flamingo über kombinierte visuelle und textuelle Prompts die Erledigung neuer Aufgaben mit wenigen zusätzlichen Informationen beigebracht werden.

Die Fähigkeiten von Flamingo

Flamingo verbindet ein visuelles KI-Modell mit einem großen Sprachmodell und erhält dadurch ein besseres visuelles Verständnis. Es nimmt multimodale Informationen in Form von visuellen Informationen als Bilder oder Frame-Sequenzen, kombiniert mit Text, entgegen, kann Bilder analysieren und Inhalte in Form von Text präzise beschreiben.

Zu den Fähigkeiten von Flamingo zählen:

  • nimmt multimodale Informationen (Bilder und Text) entgegen und generiert Antworten oder Beschreibungen in ähnlicher Qualität wie ein großes Sprachmodell
  • entwickelt ein Verständnis für die Bildinhalte
  • analysiert und beschreibt Bildinhalte präzise
  • kann sich dialogorientiert über Bildinhalte mit dem Anwender austauschen und Fragen zu den Bildern beantworten
  • lernt neue Aufgaben auszuführen mit nur wenigen aufgabenspezifischen Beispielen und ohne aufwendiges Training (visuelle Few-Shot-Lernfähigkeit)
  • kann auch Videos als Eingabe verarbeiten (in Form von Frame-Sequenzen) und liefert beispielsweise genaue und informative Beschreibungen der Videoinhalte

Funktionsweise und Training von Flamingo

Flamingo nimmt Eingaben in Form von visuellen Inhalten zusammen mit Text entgegen und generiert Text als Ausgabe. Hierfür kombiniert es das große Sprachmodell Chinchilla und ein visuelles Modell. Chinchilla mit seinen 70 Milliarden Parametern ist separat vortrainiert und in seinem trainierten Zustand eingefroren, um die Fähigkeiten zu erhalten. Auch das visuelle Modell ist im vortrainierten Zustand eingefroren und behält dadurch seine Fähigkeiten. Es kann in diesem Zustand semantische Merkmale aus Bildern in Form von visuellen Token extrahieren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Das Sprachmodell verleiht Flamingo die starken generativen Sprachfähigkeiten und stellt Wissen in Form der Gewichtungen des Modells zur Verfügung. Beide Modelle sind über eine lernfähige Architektur miteinander verbunden. Mithilfe der visuellen Token lässt sich das Sprachmodell über spezielle Cross-Attention-Layer konditionieren. Hierfür wurde das kombinierte Modell Flamingo mit einer großen Menge an multimodalen, nicht gelabelten Bild- und Textdaten aus dem Web auf ein VLM mit insgesamt 80 Milliarden Parametern trainiert. Die einzelnen Modelle blieben bei diesem Training eingefroren und es wurde quasi nur die verknüpfende lernfähige Architektur trainiert.

(ID:50003555)